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摘要 : 【 目的 ] 实现 对 多 源 异 构 科 技 信 息 的 长 期 监测 、 自 动 采集 发 布 与 存储 管理 ， 以 满足 专题 领域 科技 研究 的 需 

求 。[ 方法 】 结合 CSpace 的 应 用 扩展 需求 , 设计 开发 了 基于 CSpace 的 可 配置 化 的 科技 信息 自动 监测 功能 ， 着 重 

研究 和 解决 了 多 源 异 构 科 技 信息 采集 内 容 规则 的 可 配置 化 实现 、 与 CSpace 交互 的 自动 采集 发 布 接口 的 可 配置 化 

实现 等 关键 技术 问题 , 并 以 海洋 科技 信息 的 自动 监测 采集 为 例 进行 应 用 研究 。[【 结果 】 能 够 实现 对 多 源 异 构 科 技 
言 息 的 自动 监测 采集 ,为 科技 平台 建设 提供 良好 支持 。[ 局 限 】 采集 内 容 规 则 配置 过 程 比 较 复 杂 ; 不 支持 对 一 些 
需要 登录 的 复杂 站 点 的 自动 监测 。[ 结论 】 该 功能 方法 较 大 程度 上 扩展 了 CSpace 的 数据 采集 集成 功能 ,日 具有 
定 的 通用 性 、 可 配置 性 与 松 耦 合 性 ,可 应 用 于 多 个 科技 信息 监测 领域 。 
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1 引 各 种 科研 成 果 进 行 存 缴 管理 、 集 成 共享 和 长 期 保存 。 
但 CSpace 除了 具备 支持 常规 机 构 知 识 库 建 设 管理 的 
在 现代 开放 信息 环境 下 ,网 络 上 的 科技 信息 资源 。 全 系列 功能 模块 外 , 它 的 动态 元 数据 框架 和 知识 对 象 
由 于 其 时 效 性 强 ,图 盖 范 围 广 , 且 一 定 程 度 上 具有 较 。 类 型 化 模板 化 机 制 , 非常 有 利于 支持 多 类 型 信息 资源 
大 的 可 信 度 (尤其 是 权威 机 构 发 布 的 ) 已 成 为 情报 研 。” 的 采集 与 集成 , 能够 适应 多 场景 多 领域 下 的 专题 性 数 
究 人 员 关 注 的 重点 ,及 时 发 现 、 分 析 、 管 理 和 利用 这 。” 字 知识 库 的 建设 中 。 目 前 CSpace 对 网 络 科技 信息 资 
些 科 技 信息 资源 ,对 于 获得 最 新 的 情报 信息 ,制定 合 。 源 采 集 集 成 的 支持 主要 有 以 下 两 种 方式 : 
理 的 科技 战略 规划 ,进行 相关 情报 决策 研究 十 分 必 (1) 可 通过 批量 导入 接口 直接 导入 已 采集 的 信 
要 。 本 文 出 于 项 目 建设 和 CSpace 应 用 的 双向 需求 , 基 。” 息 。 但 导入 之 前 需要 人 工 下 载 导 入 模板 , 按 模板 要 求 
于 CSpace 进 行 功 能 扩展 开发 , 使 其 能 够 实现 对 网 络 中 。 ”严格 进行 数据 预 处 理 , 实现 已 有 数据 信息 和 CSpace 元 
开放 性 科技 信息 的 自动 监测 和 存储 分 析 管 理 。 数据 字段 的 映射 。 
CSpace 是 中 国 科 学 院 机 构 知 识 库 (Institutional (2) 提供 可 配置 化 的 OALPMH 接口 对 支持 标准 
Repository) 建 设 平台 ,目前 主要 应 用 于 对 机 构 产 出 的 。 OALPMH 协议 的 信息 源 进行 定时 收割 聚合 ; 提供 可 
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应 用 认 


视 化 的 采集 服务 界面 对 拥有 WOS Web Service 服务 权 
限 的 机 构 用 户 提供 数据 采集 功能 。 收 割 和 采集 的 数据 
会 根据 配置 自动 提交 与 关联 映射 到 CSpace 知识 库 相 
应 的 研究 专题 和 知识 内 容 类 型 中 。 

这 两 种 方式 在 对 科技 情报 源 进 行 监测 采集 时 都 存 
在 不 足 。 首 先 , 需要 借助 于 大 量 的 人 工 处 理 , 动态 交互 
性 和 时 效 性 都 不 够 强 。 而 科技 情报 源 的 监测 对 信息 的 
精准 性 和 时 效 性 都 有 较 高 的 要 求 ， 且 大 多 不 提供 批量 
下 载 功 能 ， 原始 数据 的 实时 采集 也 是 一 个 问题 , 没有 
批量 下 载 就 难以 批量 上 载 。 其 次 , 科技 情报 源 与 文献 
型 数据 库 不 同 , 来 源 站 点 一 般 是 综合 性 门户 性 网 站 ， 
大 多 都 不 支持 不 提供 标准 的 数据 互 操 作协 议和 接口 ， 
因而 并 不 具有 普 适 性 。 但 同时 , 科技 情报 源 的 监测 在 
实现 上 也 具有 一 定 优势 : 

(1) 由 于 其 信息 来 源 一 般 是 重要 国家 的 重要 机 构 
性 网 站 ,信息 来 源 是 明确 的 .有 限 的 , 因此 信息 源 可 以 
预先 六 选 和 配置 。 

(2) 信息 源 的 内 容 结构 虽然 复杂 多 样 ， 层 次 不 一 ， 


息 的 自动 识别 和 抽取 、 网 页 文本 的 自动 聚 类 与 分 类 技 
术 等 。 从 主要 的 技术 实现 方式 上 大 致 可 分 为 5 类 : 

(1) 基于 URL 规则 的 方法 

该 方法 主要 基于 同一 个 来 源 站 点 创建 的 动态 网 页 其 
内 容 一 般 应 属于 同一 个 主题 昌 其 URL 往往 非常 相似 这 
一 规律 , 通过 各 种 算法 和 模型 实现 对 这 一 规律 的 量化 、 
补充 计算 , 以 区 分 主题 无 关 的 URL 和 主题 相关 的 URL。 
如 叶 勤 勇 外 提出 UFBC 学 习 算 法 , 基于 开源 搜索 引擎 
Nutch 和 利用 正则 表达 式 进 行 算法 实现 ; 蒋 付 彬 口 提出 的 
基于 决策 树 的 URL 分 类 需 算 法 , 利用 4 个 主要 HTML 
标签 内 容 与 用 户 定 义 主题 的 相似 度 构建 决策 树 实现 
URL 分 类 ; 杨 镑 铭 中 提出 基于 模式 树 的 UPCA 分 类 算法 ， 
通过 训练 提取 特定 类 型 的 网 页 链接 特征 , 构建 模式 树 和 
生成 模式 规则 , 形成 主题 相关 的 URL 模式 库 。 

(2) 基于 模板 匹配 的 方法 

该 方法 主要 基于 同一 网 站 其 内 容 页 面 都 基于 相同 
的 模板 这 一 规律 ， 首先 创 建 和 识别 模板 , 然后 基于 模 
板 进 行 主题 信息 内 容 匹配 抽取 。 如 Bar-Yossef 等 "将 


但 基本 都 是 一 个 站 点 多 个 栏目 下 的 概览 页 (列表 页 )- 
详细 信息 页 (正文 内 容 页 ) 的 构造 模式 ,， 有 利于 研究 实 
现 通用 的 可 配置 化 的 基于 多 来 源 站 点 多 栏目 内 容 信息 
的 精准 定位 采集 。 

本 文 在 对 网 络 科技 信息 监测 的 相关 研究 现状 进行 
调研 梳理 的 基础 上 , 结合 CSpace 自身 的 架构 模式 和 科 
技 情报 监测 的 建设 需求 , 设计 开发 了 基于 CSpace 的 可 
配置 化 的 科技 信息 自动 监控 功能 , 着 重 研 究 和 解决 了 
多 来 源 多 栏目 科技 情报 源 采 集 内 容 规则 的 可 配置 化 实 
现 , 与 CSpace 交互 的 自动 采集 发 布 接口 的 可 配置 化 实 
现 等 关键 技术 问题 , 并 以 海洋 科技 信息 的 自动 监测 采 
集 为 例 进行 应 用 实践 , 最 终 实 现 了 基于 CSpace 对 多 源 
异 构 科技 信息 的 长 期 监测 、 自 动 采集 发 布 与 存储 管理 。 
并 且 该 功能 方法 具有 通用 性 和 可 配置 性 ,也 可 以 用 于 
相关 专题 领域 科技 资源 的 自动 监测 与 采集 建设 。 


2 研究 综述 


网 络 科技 信息 监测 与 普 适 性 的 搜索 引擎 系统 所 关 
注 的 采集 目标 有 所 不 同 ， 属 于 主题 信息 采集 的 范畴 。 
自 2000 年 以 来 , 国内 外 主题 信息 采集 技术 愈 来 愈 成 
熟 , 逐渐 得 到 广泛 研究 和 深入 应 用 , 所 涉及 到 的 相关 
技术 一 般 包含 采集 规则 /算法 /模型 的 构建 .主题 内 容 信 


呈 绪 数据 分 析 与 知识 发 现 


网 页 的 头 部 、 侧 部 等 导航 栏 、 底 部 版 权 声明 、 广 告 等 
网 页 中 公有 的 重复 出 现 的 信息 视 为 噪音 信息 并 定制 为 
模板 , 基于 网 页 DOM 树 和 模板 对 待 处 理 网 页 进行 匹 
配 删 除 ， 最 后 剩 下 的 为 主题 相关 的 信息 。 

(3) 基于 机 顺 学 习 的 方法 

该 方法 一 般 需 要 通过 大 量 的 样本 积累 和 训练 ,或 
者 由 人 工 预 先 标注 好 一 定数 量 的 样本 实例 ， 交 给 机 器 
程序 去 聚 类 、 归 纳 学 习 , 生成 网 页 分 类 器 (算法 和 规 
则 )， 利 用 分 类 器 对 网 页 信息 进行 模式 处 理 。 如 Mitra 
等 外 利用 预定 义 的 标签 集合 对 DOM 树 节 点 进行 训练 ， 
生成 分 类 器 ; 王 浩 中 提出 了 将 采样 技术 和 半 鉴 督学 习 
相 结 合 的 方法 ， 对 传统 的 SMOTE 文本 分 类 算法 进行 
改进 以 实现 网 络 敏感 信息 的 识别 ; Pavlinek 等 上 5 提出 
了 基于 主题 模型 表示 的 半 监 督 式 文本 分 类 方法 , 该 方 
法 包括 一 个 基于 自 训 练 的 半 监 督 文本 分 类 算法 和 模 
型 , 用 于 识别 和 确定 新 文本 内 容 的 参数 设置 。 

(4) 基于 启发 式 规则 的 方法 

该 方法 主要 结合 网 页 的 内 容 结 构 特 征 和 视觉 特 
征 , 采用 相关 启发 式 算法 如 神经 网 络 算法 、 贪 心算 法 
等 构建 启发 式 规则 集合 , 将 网 页 划分 为 多 个 可 视 化 块 
的 相关 集合 以 实现 内 容 信 息 提 取 。 如 李 剑 中 基于 BP 
神经 网 络 算法 改进 DOM 树 结 构 , 按 内 容 相 关 性 将 网 


页 划分 为 多 个 子 模块 进行 信息 内 容 过 滤 提 取 ; 李 伟 男 
等 中 基于 模拟 退火 算法 训练 二 阶 隐 马 尔 科 夫 参数 ， 改 
进 经 典 的 VIPS 网 页 分 块 算法 ,以 实现 网 页 主题 信 
息 抽 取 ; 谢 方 立 岂 提出 了 基于 DOM 节点 类 型 标注 的 
NTA 主题 信息 抽取 算法 。 

(5) 其 他 综合 性 技术 方法 

将 上 述 几 种 技术 方法 同 数学 、 计算机 、 图 书 情报 
等 领域 的 各 种 方法 如 向 量 空间 模型 VSM 泊 松 分 布 模 
型 、 贝 叶 斯 分 类 算法 、 模 糊 数学 方法 、 大 数据 / 云 计 算 
技术 、 知 识 发 现 技术 等 选择 性 地 、 有 侧重 点 地 结合 起 
来 ， 以 解决 信息 监测 中 出 现 的 各 种 问题 。 如 欧 健 文 等 中 
对 基于 模板 的 匹配 方法 进行 改进 , 提出 基于 机 带 学 习 
的 线性 回归 算法 生成 模板 , 通过 检测 链接 之 间 的 关系 
和 识别 锚 文本 的 特征 建立 页 面 模板 及 提取 规则 ,实现 
了 对 网 页 信息 主体 的 识别 和 提取 ; 马 费 成 等 59 采 用 模 
糊 数 学 的 理论 方法 , 构建 了 网 页 生命 阶段 识别 指标 和 
模糊 识别 模型 ， 以 实现 对 网 络 信息 生命 状态 的 定位 ， 
从 而 判断 出 网 页 采集 更 新 的 最 佳 周 期 和 策略 ; 林 文 辉 上 
对 基于 Hadoop 和 云 计算 分 析 的 网 络 数据 采集 和 处 理 
的 关键 技术 进行 研究 。 

上 述 这 些 技术 方法 在 实现 应 用 时 各 有 侧重 点 ， 并 
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不 是 一 个 技术 由 高 到 底 被 取代 的 过 程 ,而 是 综合 利 
用 、 相 辅 相 成 的 。 在 应 用 研究 时 , 一 般 和 优秀 的 开源 
网 络 搜索 引擎 系统 和 网 络 聆 虫 框 架 如 Lucene 、Nutch 、 
Heritrix 、Crawler4j 、Scrapy 等 结合 起 来 进行 开发 实现 。 
如 谭 宗 颖 等 ("基于 网 络 息 虫 技 术 和 文本 上 聚 类 技术 构建 
了 科技 发 展 前 沿 信 息 监 测 与 分 析 平 台 ; 刘海 波 中 基于 
Ajax 和 Web Service 技术 实现 了 网 站 多 栏目 多 频道 的 信 
息 监 测 和 实时 入 库 ; 张 智 雄 等 中 构建 了 一 种 支持 按 需 
申请 、 定 制服 务 的 科技 战略 监测 服务 云 平 台 , 通过 将 网 
络 自由 文本 转化 为 结构 化 的 可 计算 的 知识 单元 ,实现 
对 科技 领域 的 态势 监测 ; 谢 靖 等 外 以 开源 把 忠 
Crawler4j 为 基本 框架 , 实现 了 面向 网 络 科 技 监 测 的 分 
布 式 定向 资源 精确 采集 ; 王 思 丽 等 所 也 在 前 期 对 开放 
资源 的 元 数据 自动 采集 策略 方法 进行 实验 研究 。 

上 述 技术 和 应 用 方法 为 本 文 的 研究 提供 了 思路 。 

关键 功能 设计 与 实现 
3.1 整体 功能 结构 

整体 功能 结构 主要 包含 数据 准备 、 采 集 内 容 规则 
的 可 配置 化 、 自 动 采集 发 布 接口 的 可 配置 化 实现 三 层 
关键 工作 流程 ， 其 框架 如 图 1 所 示 ( 自 下 而 上 )。 


可 配置 化 的 


面向 CSpace 的 自动 采集 发 布 实现 : 自己 
映射 & 与 CSpace 提 交 / 存 储 /索引 流程 融 汇 


动 采集 发 布 接口 


长 期 定时 自己 


监测 与 采集 应 


采集 网 址 规则 配置 : 入 口 网 址 & 列表 页 循环 网 址 


< 集 任务 运 和 


内 容 信 息 


Ee 抽取 规则 配置 
采集 内 容 规 则 数据 内 容 过 滤 处 理 规则 配置 
下 J 管理 配置 : 运行 日 志 久 手动 可 控 & 定时 计划 任务 


数 、 
$[ 确定 科技 情报 源 监测 目录 | 一 > 


3.2 ”数据 准备 

科技 情报 源 监测 目录 的 确定 与 准备 。 可 由 相关 人 
员 先 行 六 选 和 梳理 提供 ,主要 包含 监测 所 需 的 来 源 站 
点 名 称 、 站 点 网 址 、 栏 目 名 称 、 栏 目 人 口 地 址 、 栏 目 
内 容 类 型 、 采 集 深度 、 预 过 滤 的 关键 词 列表 等 , 除了 
上 述 必 提供 项 , 也 可 根据 具体 建设 需求 ,附加 一 些 需 


要 在 采集 配置 时 缺 省 批量 写 和 人 的 元 数据 项 ， 如 来 源 机 
构 名 称 、 所 属国 家 等 。 一 个 来 源 站 点 可 允许 提供 并 监 
测 配置 多 个 栏目 及 内 容 类 型 。 
3.3 ”采集 内 容 规则 的 可 配置 化 实现 

根据 已 避 选 和 确定 的 科技 情报 源 监 测 目录 , 对 其 
采集 内 容 规则 进行 可 配置 化 实现 , 包含 采集 网 址 规则 


Data Analysis and Knowledge Discovery 


.01592V1 


GN 


0171 


GAN 


本 图 
和 = 


chinaXiv 


(采集 入 口 网 址 规则 、 列 表 页 循环 网 址 规则 )、 正 文 内 
容 信息 抽取 规则 、 数 据 内 容 过 滤 处 理 规则 、 采 集 任 务 
运行 管理 配置 等 。 其 核心 策略 流程 如 图 2 所 示 。 
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图 2 采集 内 容 规则 的 配置 流程 

(1) 基于 URL 相似 规律 的 分 页 规则 配置 
采用 基于 URL 规则 的 方法 ， 寻 找 分 页 URL 的 相 
似 性 规律 。 研 究 发 现 , 分 页 URL 地 址 格式 一 般 可 分 为 


固定 前 级 部 分 和 可 变 参数 部 分 。 其 中 可 变 参 数 部 分 通 
常 遵循 4 类 规则 : 

@ 等 差 数列 规则 。 如 果 首 页 参数 为 p1， 公 差 为 d， 那 么 
第 n 页 的 参数 表达 式 为 pn=pl+(n-1)xdq。 常 见 的 分 页 参数 公 
差 为 1 或 10。 首 页 参数 为 0 或 1, 项 数 可 根据 网 站 栏目 提供 
的 总 页 数 进行 确定 。 

@ 等 比 数列 规则 。 如 果 首 页 参数 为 pl， 公 比 为 9g， 那么 
第 n 页 的 参数 表达 式 为 pn=p1xg”"!。 

(A-Z 或 az 的 字母 变化 规则 。 

@ 基 于 时 间 组 合格 式 的 变化 规则 。 一 般 是 年 (yyyy)、 月 
(MM)、 日 (dd)、 时 (HH)、 分 (mm)、 秒 (ss) 的 各 种 形式 再 加 以 
分 隔 符 的 组 合 ， 如 以 下 划 线 “<”、 中 杠 “-”、 反 斜 杠 “/” 等 。 可 
以 通过 格式 化 日 期 函数 实现 各 种 组 合 。 此 外 ,通常 若 首 页 的 
日 期 参数 格式 是 D1， 则 第 n 页 的 日 期 参数 格式 可 能 比 首页 
日 期 向 前 推迟 几 天 。 此 认 知 基于 大 部 分 来 源 站 点 栏目 信息 数 
据 最 新 的 信息 排列 在 最 前 页 这 一 规律 。 

本 文 主要 对 上 述 4 类 规则 进行 配置 化 实现 , 在 用 
户 输入 完整 采集 网 址 后 ， 提 示 用 户 保留 固定 前 绥 部 分 ， 
对 于 可 变 参数 部 分 用 (*) 代 蔡 ,并 提供 4 种 规则 选项 给 
用 户 进 行 选择 和 参数 配置 ， 系统 最 终 会 生成 一 个 分 页 
规则 逻辑 表达 式 进 行规 则 存储 , 并 将 逻辑 表达 式 可 能 
监测 到 的 URL 地 址 列表 提供 给 用 户 进行 预览 ， 以 修正 
配置 规则 和 人 参数， 确保 将 监测 的 基本 范围 控制 在 某 个 
栏目 内 。 

(2) 基于 多 级 循环 和 模板 脚本 匹配 的 列表 页 采集 


配置 


通过 对 科技 情报 源 的 样本 数据 分 析 ， 基 于 迭代 
循环 和 逐 层 链接 访问 的 方法 实现 对 站 点 列表 页 的 多 
级 循环 设计 , 设计 流程 如 图 3 所 示 。 
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图 3 多 级 循环 模式 的 列表 页 采集 策略 


其 核心 思想 是 将 采集 起 始 网 址 (包括 其 分 页 地 址 ) 
视 为 0 级 网 址 , 认为 0 级 网 址 内 应 至 少 包含 一 个 列表 
页 1, 而 1 级 列表 页 网 址 范围 内 的 每 一 个 链接 可 能 司 
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样 包含 了 一 个 列表 页 2, 2 级 列表 页 内 的 网 址 可 能 指向 
列表 页 3, 依次 迭代 循环 下 去 , 最 终 必 定 指 向 正文 内 
容 页 。 这 个 迭代 的 次 数 就 是 采集 的 深度 ,理论 上 可 以 


实现 无 限 级 迭代 , 但 在 实际 应 用 中 , 受 采 集 效率 及 外 
在 网 络 的 影响 , 一 般 设 置 迭代 次 数 不 超 过 4 次 ,常见 
的 为 2 级 采集 。 对 于 确实 需要 座 度 迭 代 的 可 以 切 分 为 
多 个 任务 依次 执行 。 同 时 , 构建 云 网 址 库 ， 初 始 化 时 云 
网 址 库 为 空 , 采集 任务 执行 时 首先 将 0 级 网 址 的 第 一 
个 监测 网 址 加 入 网 址 库 , 然后 每 次 将 循环 采集 到 的 列 
表 网 址 与 云 网 址 库 进 行 比 对 以 实现 URL 去 重 和 增 量 
采集 。 

在 对 列表 页 内 容 进行 采集 规则 配置 时 ， 主 要 采用 
改进 的 模板 脚本 匹配 的 方法 ， 基 于 列表 页 中 的 数据 列 
表 一 般 都 包含 在 一 个 固定 的 标签 区 域 块 中 ， 且 数据 列 
表 中 的 每 一 条 概览 性 信息 一 般 都 具有 大 致 相同 的 内 容 
结构 这 一 规律 进行 实现 。 在 配置 界面 中 ,着 重 实现 5 
种 方式 供用 户 进行 规则 选择 

@D 从 页 面 中 自动 分 析 以 得 到 列表 页 中 的 链接 。 主 要 基于 
网 址 链接 都 存储 在 a 标签 的 href 属性 中 这 一 内 容 结 构 特征 。 

G@) 手 动 填写 链接 地 址 规则 。 用 户 需要 基于 HTML 标签 
和 内 容 结 构 自行 建立 模板 脚本 规则 ， 并 通过 设置 参数 指定 
下 一 层级 访问 的 实际 链接 地 址 。 

(@@ 采 用 XPath 方式 获取 地 址 链接 。 用 户 可 以 直接 填写 
XPath 表达 式 ， 也 可 以 通过 点 击 系统 内 误 的 微型 XPath 浏览 
器 ， 辅 助 测试 构造 XPath。 

(@ 指 定 区 域 提取 网 址 。 主 要 基于 字符 串 截 取 的 方法 , 根 
据 用 户 指定 的 开始 区 域 和 结束 区 域 标签 进行 网 址 的 提取 ， 
指定 的 区 域 必 须 是 页 面 中 唯一 的 。 

@ 指 定 结果 网 址 集 过 滤 的 关键 词 列表 。 可 以 配置 必须 包 
含 的 关键 词 列 表 和 不 得 包含 的 关键 词 列 表 , 以 实现 对 采集 
网 址 自身 的 过 滤 控 制 。 

以 上 5 种 方式 前 三 种 属于 必 选 一 种 的 单 选 规则 ， 
后 两 种 属于 复 选 规则 ， 可 以 和 前 三 种 进行 规则 组 配 ， 
以 实现 多 级 规则 控制 ,此 外 ,在 http 请 求 方式 中 , 实现 
了 基于 get 和 post 两 种 方式 进行 请 求 。 一 般 其 中 若 请 
求 方式 选择 为 post, 需要 配置 post 发 送 的 数据 模板 ， 
post 数据 一 般 也 可 包含 固定 部 分 和 可 变 部 分 。 可 变 部 
分 又 分 为 随机 数值 和 分 页 参数 数值 ， 其 中 实现 方式 与 
分 页 规则 的 配置 实现 方式 类 同 。 

(3) 基于 模板 创建 和 标签 定位 的 正文 内 容 页 信息 
提取 配置 

同一 来 源 站 点 同一 栏目 内 容 类 型 的 正文 内 容 页 一 
般 涵 盖 大 致 相同 的 几 种 信息 元 素 ( 元 数据 )， 且 相同 元 
素 的 标签 位 置 基本 是 固定 不 变 的 。 可 根据 该 特征 预先 
创建 信息 模板 ,如 常见 的 正文 信息 元 素 有 标题 、 作 者 、 
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发 布 晶 期、 正文 内 容 等 ,然后 为 每 一 个 元 素 指定 信息 
提取 方式 。 本 文 着 重 设计 并 实现 了 4 种 信息 提取 配置 
方式 : 

人 中 基 于 开始 和 结束 字符 串 的 前 后 字符 串 截 取 的 信息 提 
取 方 式 。 其 中 开始 字符 串 必 须 是 页 面 中 唯一 的 ， 结束 字符 串 
必须 是 继 开始 字符 串 之 后 页 面 中 唯一 的 。 

@ 基 于 正则 表达 式 的 模式 匹配 的 信息 提取 方式 。 正 则 表 
达 式 的 组 件 可 以 是 单个 的 字符 、 字 符 集合 、 字 符 范围 、 字 符 
间 的 选择 或 者 所 有 这 些 组 件 的 任意 组 合 。 它 作为 一 个 模板 ， 
将 待 提 取 的 信息 字符 构造 模式 与 所 搜索 的 正文 内 容 字 符 串 
进行 匹配 。 

图 基于 XPath 的 可 视 化 信息 提取 方式 。 与 列表 页 的 获取 
地 址 链接 时 的 XPath 方式 类 似 。 

(@ 基 于 标签 内 容 组 合 的 信息 提取 方式 ,该 方法 主要 是 指 
将 通过 上 述 三 种 方法 得 到 的 标签 内 容 经 过 一 定 的 数据 处 理 
后 , 重新 组 合 为 新 的 元 数据 内 容 。 可 以 选择 一 个 或 多 个 已 获 
取 的 标签 内 容 , 根据 需要 自由 设 定 分 隔 符 进 行 组 合 和 数据 
内 容 处 理 。 

同时 , 本文 实现 了 多 种 数据 内 容 处 理 方式 供 信息 
提取 后 进行 按 需 调用 ， 如 html 标签 过 滤 方 式 , 对 不 需 
要 的 html 标签 内 容 进 行 可 选 过 滤 , 包括 script 脚本 、 
frame 框架 、 首 尾 空白 字符 等 。 如 自动 提取 关键 词 等 ， 
通过 采用 分 词组 件 和 算法 实现 自动 分 词 后 , 设 定 分 隔 
符 链 接 前 1 至 5 个 高 频 词 作为 关键 词 。 其 他 的 如 字符 
截取 、 字 符 内 容 替 换 、 基 于 正则 表达 式 的 内 容 替 换 、 
编码 自动 识别 转换 等 。 此 外 , 还 可 以 配置 关键 词 列表 ， 
对 正文 内 容 实现 过 滤 删 除 , 与 上 文采 集 网 址 的 关键 词 
列表 配置 类 似 。 具 体 采 集 时 ， 当 判断 出 正文 内 容 不 符 
合 关键 词 列表 要 求 时 , 无 论 其 他 信息 是 否 已 提取 , 该 
条 信息 都 将 会 被 自动 跳 过 。 

(4) 基于 主题 任务 树 和 可 定制 任务 计划 的 采集 任 
务 运行 配置 

主要 采用 带 复 选 框 的 可 收缩 的 主题 树 方式 进行 采 
集 任务 的 运行 管理 。 在 创建 采集 任务 初期 , 支持 根据 
CSpace 专题 研究 需要 建立 不 同 的 主题 层级 , 形成 主题 
任务 树 。 然 后 针对 不 同 更 新 周期 的 信息 来 源 站 点 主要 
实现 了 两 种 采集 任务 运行 管理 方式 : 其 一 是 人 工 实时 
监控 采集 ; 其 二 是 定时 自动 采集 , 通过 预先 制定 采集 
任务 计划 ， 由 机 器 自动 执行 采集 任务 。 在 方法 一 中 , 可 
根据 实际 需要 选择 一 个 或 多 个 任务 到 任务 队列 池 进 行 
采集 ， 可 选择 单 步 执行 采集 ,如 只 采集 栏目 的 网 址 或 
内 容 , 也 可 以 选择 执行 全 部 任务 流程 ,从 采集 网 址 到 
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内 容 到 自动 提交 发 布 一 次 完成 。 同 时 , 可 以 在 日 志 模 
块 中 , 查看 实时 采集 的 日 志 输 出 信息 。 方 法 二 中 , 实现 
了 计划 任务 管理 器 , 支持 预先 从 主题 任务 树 中 选择 一 
个 或 多 个 任务 ,灵活 设置 采集 任务 的 执行 时 间 和 频次 ， 
如 每 天 、 每 周 或 间隔 周期 等 , 形成 长 期 定时 的 可 执行 
任务 计划 。 
3.4 自动 采集 发 布 接口 的 可 配置 化 实现 

主要 实现 了 三 种 自动 采集 发 布 方式 : 

(1) 直接 发 布 为 本 地 的 Word、Excel、 CSV、MDB 
格式 文件 

文 持 预 先 定 义 发 布 的 格式 文件 模板 和 保存 位 置 ， 
然后 按 模 板 将 文件 转化 为 相应 结构 格式 并 保存 到 指定 
位 置 。 

(2) 发 布 到 指定 的 关系 数据 库 表 

主要 是 MySQL 等 主流 关系 数据 库 ， 且 关系 数据 
库 中 表 结 构 必 须 已 存在 。 通 过 配置 数据 库 的 服务 器 地 
址 、 端口 、 用 户 名 、 密码 等 登录 信息 进行 自动 验证 , 基 
于 拼接 SQL 语句 将 已 采集 的 内 容 标签 信息 与 关系 数 
据 库 中 的 表 结构 进行 关联 映射 ,实现 采集 信息 自动 提 
交 人 人 库 。 

(3) 发 布 到 远程 CSpace 知识 库 系 统 

前 两 种 方式 比较 简单 ,实现 关键 在 于 数据 格式 的 
转换 和 元 数据 字段 内 容 的 映射 ， 而 第 三 种 方式 相对 复 
林 , 不 仅 要 能 够 实现 自动 向 CSpace 远程 知识 库 系统 实 
时 或 定时 提交 最 新 采集 数据 ,同时 也 必须 能 够 实现 并 
保证 CSpace 对 已 提交 采集 数据 的 自动 实时 正确 接收 ， 
因此 需要 着 重 人 研究 。 

CSpace 知识 库 系 统 自身 具有 一 套 复杂 而 
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@ 基 于 数据 包 方 式 的 已 采集 数据 与 CSpace 元 数据 的 关 
联 映射 配置 。 支 持 用 户 将 已 采集 数据 的 内 容 标 签 与 CSpace 
元 数据 字段 进行 一 一 对 应 的 映射 配置 ， 主 要 包括 采集 资源 
类 型 与 CSpace 知识 对 象 类 型 的 对 应 ,采集 信息 内 容 标 签 与 
CSpace 对 象 类 型 模板 中 元 数据 字段 的 一 一 对 应 ， 预 定义 提 
交 发 布 的 CSpace 的 研究 单元 /专题 名 称 及 ID 配置 等 。 接 口 
应 用 时 系统 会 自动 调用 该 映射 配置 信息 , 采用 httpclient 提 
交 post 数据 包 的 方式 , 将 该 信息 模拟 并 构造 为 表单 提交 数 
据 的 方式 , 向 CSpace 工作 流 自动 提交 与 确认 发 布 数据 。 

(基于 CSpace 提交 流程 改进 的 数据 接收 与 发 布 接口 类 
的 实现 。 为 便于 人 工 进 行 数 据 浏 览 确认 ， 原 有 CSpace 提交 
流程 具有 提交 缓存 和 二 次 确认 修改 的 工作 流 ， 相 应 的 数据 
流 会 首先 存储 在 CSpace Workflow 的 工作 机 制 中 , 最终 确认 
提交 后 才 会 进入 CSpace 的 存储 索引 流程 。 在 机 器 自动 发 布 
接口 实现 中 ， 由 于 不 需要 提交 缓存 的 工作 流 并 且 提 交 缓 存 
会 影响 采集 发 布 结果 的 查 重 与 效率 ,因此 略 去 了 该 过 程 ， 实 
现 了 自动 查 重 与 数据 处 理 提交 发 布 的 接口 类 。 该 接口 类 需要 
在 CSpace 的 web.xml 中 进行 配置 , 主要 包含 几 个 核心 方法 。 
其 中 processQuickSubmitGather 方法 ， 用 于 响应 提交 请 求 ， 
并 进行 数据 实时 接收 、 任 务 分 发 和 处 理 状态 返回 。 
processInputFormGather 方法 ， 用 于 处 理 接收 到 的 数据 ， 与 
CSpace 的 元 数据 字段 实现 自动 关联 映射 。processKeywords 
Gather 方法 ,用 于 进行 数据 确认 提交 前 的 内 容 再 次 过 滤 ， 需 
要 传 入 待 过 滤 的 正文 内 容 、 关 键 词 列表 等 参数 。 可 根据 需要 
针对 不 同 的 CSpace 子 专题 说 入 预定 义 好 的 不 同 的 关键 词 列 
表 或 领域 词 表 , 通过 调用 或 重 写 该 方法 ,对 已 采集 到 的 数据 
内 容 进 行 算法 过 滤 排 除 ,不 符合 专题 要 求 的 数据 则 不 进行 
提交 发 布 。 
3.5 ”应 用 效果 展示 

本 文 结合 项 目 研究 需求 , 首先 在 海洋 科技 信息 监 
测 中 进行 实际 应 用 。 主 要 是 对 海洋 科技 信息 包含 如 相 
关 海 洋 国家 制定 的 综合 性 海洋 科技 发 展 战略 、 海 洋 政 


的 数据 提交 、 审 核发 布 、 存 储 索 引流 程 ， 自 动 提交 到 
CSpace 的 采集 数据 必须 打通 和 融和 这些 流 程 , 才能 后 
续 正常 应 用 CSpace 的 数据 、 权 限 等 各 种 管理 功能 ， 实 
现 与 CSpace 平台 自身 的 各 种 功能 交互 以 及 基于 
CSpace 与 第 三 方 系统 的 接口 交互 等 。 基 于 以 上 考虑 ， 
该 方法 主要 分 为 以 下 步骤 进行 实现 : 

人 面向 CSpace 的 自动 登录 验证 配置 。 支 持 用 户 在 采集 
发 布 接口 中 配置 远程 CSpace 知识 库 系 统 的 登录 信息 (用 户 
名 、 密 码 、 验 证 码 等 )， 接口 应 用 时 会 自动 调用 该 配置 信息 和 
CSpace 的 登录 机 制 , 向 CSpace 发 出 登录 请 求 并 进行 验证 , 最 
后 返回 登录 验证 成 功 与 否 的 标志 信息 。 如 CSpace 4.0 系统 登 
录 成 功 的 标志 一 般 是 返回 信息 : {original url: "mycspace"}， 
表示 登录 成 功 后 转向 到 “我 的 工作 间 ”。 


葬 浊 数据 分 析 与 知识 发 现 


策 与 法 律 及 相关 重要 海洋 研究 机 构 发 布 的 海洋 战略 研 
究 报 告 、 资 讯 报 告 、 统 计 资 料 、 新 闻 报道 、 学 术 会 议 
等 的 自动 监测 配置 与 采集 发 布 。 前 期 确立 的 海洋 科技 
情报 监测 目录 涵盖 了 大 约 21 个 数据 源 、35 个 站 点 栏 
目 。 用 户 可 在 采集 任务 配置 界面 新 建 采 集 任务 模板 ， 
配置 采集 网 址 规则 、 内 容 信息 提取 规则 、 数 据 过 滤 处 
理 规则 等 ,形成 一 系列 可 执行 任务 ,如 图 4 所 示 。 同 时 
在 自动 采集 发 布 配置 界面 实现 了 针对 CSpace 的 远程 
自动 登录 验证 配置 ， 与 CSpace 元 数据 的 关联 映射 配置 
等 ,如 图 5 所 示 。 最 终 经 过 配置 的 任务 , 可 长 期 定时 自 
动 监测 、 采 集 目 标 来 源 站 点 的 最 新 数据 ， 并 实时 提交 
到 远程 CSpace 知识 库 。 
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系统 名 称 : cspace 
版 本 号 : |4.0+ 
| 装 志 : 编辑 模块 sea_news20160706.wpm ”说 明 : 所 有 的 地 址 不 带 CMS 系 统 安装 路 径 ,并 以 反 冬 械 /开头 


图 5 采集 内 容 发 布 配置 


加 载 模块 。 ”新 建 / 重 置 保存 模块 


4 结 论 


实际 应 用 表明 ,本 文 研 究 较 大 程度 上 扩展 了 
CSpace 的 数据 采集 集成 功能 ， 且 具有 以 下 优点 : 

(1) 通用 的 可 配置 化 的 自动 监测 方法 可 以 应 用 在 
多 个 科技 信息 监测 领域 

主要 是 对 具有 相同 结构 内 容 特 质 的 科技 信息 资源 
来 源 网 站 如 各 种 门户 网 站 、 机 构 网 站 、 自 由 网 站 都 可 
以 进行 配置 以 实现 自动 监测 。 除 此 之 外 , 对 OAI-PMH 
接口 、JSON 接口 等 各 种 常规 开放 接口 也 能 进行 监测 
采集 。 该 自动 监测 功能 已 在 中 国 科 学 院 兰 州 文献 情报 
中 心 海洋 科技 战略 信息 自动 监控 平台 、 产 业 情 报 大 数 
据 平 台中 、 全 球 变 化 知识 资源 中 心 PL、 全 球 科研 项 目 
数据 库 中 等 多 个 基于 CSpace 的 项 目 平 台 建 设 中 得 到 
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应 用 。 

(2) 与 CSpace 系统 的 松 耦 合 性 

自动 监控 功能 与 CSpace 通过 自动 采集 发 布 接口 
配置 实现 交互 , 在 整体 上 形成 了 一 种 基于 客户 端 与 服 
务 器 的 C/S 架构 工作 模式 。 自 动 监 控 功能 作为 客户 端 ， 
可 分 布 式 多 线程 运行 在 多 台 机 器 上 进行 监测 采集 以 提 
高 采集 效率 ; CSpace 知识 库 作 为 远程 服务 器 , 用 于 对 
已 采集 数据 的 实时 接收 、 存 储 索 引 与 分 析 管 理 。 当 服 
务 端 出 现 问题 ,至 多 是 采集 数据 发 布 不 成 功 ， 并 不 影 
响 客户 端的 数据 监测 采集 , 反之 亦 然 。 而且, 采集 任务 
配置 与 自动 采集 发 布 接口 配置 可 以 是 多 对 多 的 关系 ， 
不 同 的 采集 任务 可 以 配置 不 同 的 采集 发 布 接口 , 实现 
同时 向 多 个 CSpace 系统 自动 采集 发 布 数据 。 

但 同时 , 本 文 也 存在 一 定 不 足 : 

(1) 采集 内 容 规 则 配置 过 程 比较 复杂 : 需要 配置 
人 员 对 HTML 标签 内 容 、 正 则 表达 式 、XPath 表达 式 
的 构造 具有 一 定 的 理论 知识 。 主 要 是 针对 特定 信息 源 
特定 栏目 的 自动 监测 采集 ， 目 标 数据 源 及 内 容 抽 取 规 
则 需要 预先 洲 选 与 配置 , 不 支持 在 自动 监测 采集 过 程 
中 自动 识别 发 现 新 的 信息 源 。 同 时 采集 内 容 规则 严格 
依赖 于 对 科技 信息 来 源 站 点 栏目 内 容 结构 的 特征 分 析 
与 模板 化 创建 ， 当 原始 内 容 结构 发 生变 化 时 ,采集 内 
容 规则 配置 也 应 随 之 变化 。 

(2) 暂 不 支持 对 一 些 比较 复杂 的 基于 Ajax 技术 或 
需要 登录 的 来 源 站 点 的 自动 监测 : 前 期 仅 实现 了 对 大 
部 分 常规 开放 性 科技 信息 源 的 监测 采集 配置 ,对 一 些 
强制 需要 登录 才能 获得 采集 内 容 的 来 源 站 点 , 仅 解 决 
了 通过 短暂 点 击 获得 Cookie 信息 的 配置 验证 , 并 不 具 
有 长 久 的 时 效 性 。 

以 上 问题 都 需要 后 续 深入 研究 , 期 望 能 够 借助 机 
器 学 习 算 法 、 启 发 式 算法 完成 对 自动 监测 功能 的 优化 ， 
包括 简化 采集 内 容 规 则 的 配置 过 程 , 实现 对 一 些 复杂 
站 点 的 分 析 与 自动 采集 配置 等 ,从 而 基于 CSpace 对 专 
题 领域 科技 研究 、 科 技 资源 采集 集成 建设 等 提供 更 加 
良好 的 支持 。 
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Abstract: [Objective] This paper proposes a new System to automatically track, acquire, store and manage scientific 
information, aiming to Support research in related fields. [Methods] We developed the new System based on the CSpace 
and then solve many technical issues. Then, we examined the new system with marine information. [Results] The 
proposed system could automatically retrieve multi-source heterogeneous scientific information, which supported the 
construction of science and technology platform. [Limitations] The information acquisition procedure of the new 
System Was complex, and it cannot retrieve documents from password-protected sites. [Conclusions] The proposed 
method could expand the CSpace’s data acquisition and integration functions, and might be transferred to other fields. 
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